一种预测无机晶体形成能的高精度泛化模型
论文简介
随着数据科学和材料科学的进步,人们如今可构建出较为准确的人工智能模型,用于材料性质预测。本文中,中国科学院物理研究所/松山湖材料实验室的的孟胜教授、刘淼副教授及梁英宗博士等人以170,714个无机晶体化合物的高通量第一性原理计算数据集为基础,训练得到了可精确预测无机化合物形成能的机器学习模型。相比于同类工作,本项研究以超大数据集为出发点,构建出无机晶体形成能的高精度泛化模型,可外推至广阔相空间,其中的DenseNet神经网络模型精度可以达到R2 = 0.982和MAE = 0.072 eV/atom。上述模型精度的提升源自一系列新型特征描述符,这些描述符可有效提取出原子与领域原子间的电负性和局域结构等信息,从而精确捕捉到原子间的相互作用。本文为新材料搜索提供了一种高效、低成本的结合能预测手段。
本项工作开发了一套预测无机晶体形成能的高精度泛化模型。相比于同类工作,本项工作构建出的模型不仅预测准确性高(预测平均误差仅为72 meV/atom),且具有很好的泛化本领。AI模型的预测精度和泛化本领通常不可得兼,此前业内的绝大多数无机晶体形成能模型,都经过大量数据清洗,因此虽然获得的模型精度貌似很高,但是泛化本领极差,不具备应用价值。本项工作通过构建具有物理思维的材料结构描述符,各项性能较优秀的DenseNet算法,及高质量海量数据为核心优势,精确且有效地捕捉到原子间的相互作用和构效关系。基于AI模型,刘淼团队目前可以快速预测未知结构的形成能,为新材料搜索提供了一种高效、低成本的结合能预测手段。
图文导读
图1 使用全球材料数据库Materials Project的139, 368种无机晶体材料对(a)CGCNN,(b)Crabnet和(c)Roost 三种AI模型开展有效性验证,图中的颜色表示了数据点的密度,颜色越深数据点的密度就越高。
图2(a)使用Voronoi分割算法找到的第i个原子的最近邻原子,并以此建立起基于材料结构信息的特征描述符:(b)化学键(CB),(c)配位数(CN),和(d)电负性的差(Δχ)。
图3 DFT计算得到与机器学习预测获得的形成能Eform的比较结果,该预测过程既加入了基于组分信息CD的特征描述符也加入了基于结构信息SD的特征描述符。本文中使用到的九种机器学习算法分别是:(a)Ridge Regression (RR);(b)Linear Support Vector Regression (LSVR);(c)K-Nearest Neighbors Regression (KNNR);(d)Random Forest Regression (RFR);(e)GradientBoosting Regression (GBR);(f)AdaBoost Regression (ABR);(g)ExtraTrees Regression (ETR);(h)Support Vector Regression (SVR);(i)DenseNet (DN)。
图4 添加本文新提出的结构描述符前后,9种机器学习方法在预测结果上的改善效果对比。(a)R2,(b)RMSE,和(c)MAE。
图5 描述符在影响预测形成能Eform上的重要性排序:(a)未添加和(b)添加新提出的结构描述符的排序对比。由红色标记出的条柱为本文提出的新结构描述符的重要度。(c)和(d)分别为未添加和添加新提出的结构描述符的Pearson系数矩阵。其中出现在x和y轴标签右上角的小写字母a,v,r,s,k和u分别对应着“平均值,方差,极差,偏度,峰度以及和”。
图6 (a)Ti-O,(b)V-O,(c)Mn-O,和(d)Li-P 化学系统的热力学相图。蓝色三角形,红色圆形和绿色长方形分别表示DFT计算得到的形成能Eform,添加和未添加新结构描述符的预测结果。蓝色包络线由每个化学系统中稳定结构的DFT计算形成能Eform组成。
原文信息:
Liang, et al. A universal model for accurately predicting formation energy of inorganic compounds. Science China Materials, 2022. https://doi.org/10.1007/s40843-022-2134-3
点击阅读全文,了解更多